隐肌通常会将覆盖媒体修改为嵌入秘密数据。最近出现了一种称为生成隐志(GS)的新型隐志方法,其中直接从秘密数据中生成了Stego图像(包含秘密数据的图像),而无需覆盖媒体。但是,现有的GS方案经常因其表现不佳而受到批评。在本文中,我们提出了一个先进的生成隐志网络(GSN),该网络可以在不使用封面图像的情况下生成逼真的Stego图像,其中首先在Stego Image生成中引入了相互信息。我们的模型包含四个子网络,即图像生成器($ g $),一个歧视器($ d $),steganalyzer($ s $)和数据提取器($ e $)。 $ d $和$ s $充当两个对抗歧视器,以确保生成的Stego图像的视觉和统计不可识别。 $ e $是从生成的Stego图像中提取隐藏的秘密。发电机$ g $灵活地构建以合成具有不同输入的封面或seego图像。它通过隐藏在普通图像发生器中生成seego图像的功能来促进秘密通信。一个名为Secret Block的模块设计用于在图像生成过程中掩盖特征地图中的秘密数据,并实现了高隐藏容量和图像保真度。此外,开发了一种新型的层次梯度衰减技能来抵抗切割分析的检测。实验证明了我们工作比现有方法的优越性。
translated by 谷歌翻译
视频文本发现(VTS)是需要同时检测,跟踪和识别视频中文本的任务。现有的视频文本发现方法通常开发复杂的管道和多个模型,这不是实时应用程序的朋友。在这里,我们提出了一个带有对比表示学习(Cotext)的实时端到端视频文本检测器。我们的贡献分为三个:1)Cotext同时解决实时端到端可训练框架中的三个任务(例如,文本检测,跟踪,识别)。 2)通过对比度学习,Cotext模拟了多个帧的长距离依赖性和学习时间信息。 3)简单,轻巧的体系结构设计用于有效和准确的性能,包括带有蒙版ROI的基于CTC的GPU - 平行检测后处理。广泛的实验显示了我们方法的优越性。尤其是,Cotext在ICDAR2015VIDEO上以41.0 fps的速度实现了一个视频文本,以72.0%的IDF1命中,其video的范围为10.5%和32.0 fps,改进了先前的最佳方法。该代码可以在github.com/weijiawu/cotext上找到。
translated by 谷歌翻译
可靠的结肠镜检查图像自动分类对于评估结肠病变阶段和制定适当的治疗计划具有重要意义。但是,由于亮度不平,位置可变性,类间的相似性和类内部差异,它影响了分类精度,因此具有挑战性。为了解决上述问题,我们在本研究中提出了一个基于傅立叶的频率复杂网络(FFCNET),用于结肠疾病分类。具体而言,FFCNET是一个新颖的复杂网络,可以使复杂的卷积网络与频率学习的结合,以克服由实际卷积操作引起的相位信息丢失。同样,我们的傅立叶变换会将图像的平均亮度传递到频谱中的一个点(DC组件)中,从而通过解耦图像含量和亮度来减轻亮度不均匀的影响。此外,FFCNET中的图像贴片争夺模块会生成随机的局部光谱块,使网络能够学习长期和局部疾病特定特征,并提高硬样品的判别能力。我们在具有2568个结肠镜检查图像的内部数据集上评估了所提出的FFCNET,这表明我们的方法实现了高性能的表现优于先前的最新方法,其准确性为86:35%,准确性高4.46%,高4.46%。具有代码的项目页面可在https://github.com/soleilssss/ffcnet上找到。
translated by 谷歌翻译
面部解析将像素语义标签分配为计算机的面部表示,这是许多高级面部技术的基本部分。与2D面对解析相比,3D面对解析具有更大的潜力,可以实现更好的性能和进一步的应用,但是由于3D网格数据计算,它仍然具有挑战性。最近的作品引入了3D表面分割的不同方法,而性能仍然有限。在本文中,我们提出了一种基于“ 3D-2D-3D”策略来完成3D面对解析的方法。包含空间和纹理信息的拓扑磁盘状的2D面图像通过面部参数化算法从采样的3D面数据转换,并提出了一个称为CPFNET的特定2D网络,以实现具有多种参数化脸部数据的语义分割。比例技术和功能聚合。然后,2D语义结果将成反比3D面数据,最终实现了3D面对解析。实验结果表明,CPFNET和“ 3D-2D-3D”策略都完成了高质量的3D面对解析和跑赢大于最新的2D网络以及定性和定量比较的3D方法。
translated by 谷歌翻译
最近的视频文本发现方法通常需要三个阶段的管道,即检测单个图像中的文本,识别本地化文本,跟踪文本流以及后处理以生成最终结果。这些方法通常遵循按匹配范式跟踪并开发复杂的管道。在本文中,植根于变压器序列建模,我们提出了一个简单但有效的端到端视频文本检测,跟踪和识别框架(TransDert)。转码主要包括两个优点:1)与相邻帧中的显式匹配范式不同,transdetr轨道和不同的匹配范围,并通过长期时间序列(超过7帧)隐含的不同查询所谓的文本查询隐式识别每个文本。 2)Transdetr是第一个端到端可训练的视频文本斑点框架,该框架同时介绍了三个子任务(例如,文本检测,跟踪,识别)。进行了四个视频文本数据集(即ICDAR2013视频,ICDAR2015视频,Minetto和YouTube视频文本)中的广泛实验,以证明Transdetr在预先的性能中达到了最大的表现,并且在视频文本发现任务方面的提高约为8.0%。 。可以在https://github.com/weijiawu/transdetr上找到Transdet的代码。
translated by 谷歌翻译
由于其高实用价值,无监督的域自适应人员重新识别受到显着的关注。在过去几年中,通过遵循聚类和FineTuning范式,研究人员建议利用他们的师生框架,以减少不同人重新识别数据集之间的域间差距。受到最近的教师学生框架基于方法的启发,它试图通过使学生从教师直接复制行为来模仿人类学习过程,或者选择可靠的学习材料,我们建议进行进一步的探索,以模仿不同方面的人类学习过程,\ Texit {IE},自适应更新学习材料,选择性地模仿教师行为,分析学习材料结构。探索的三个组件共同合作,构成了一个新的无监督域自适应人重新识别的方法,称为人类学习仿框架。三个基准数据集的实验结果证明了我们提出的方法的功效。
translated by 谷歌翻译
在本文中,我们通过利用全新监督学习来推进面部表情识别(FER)的表现。本领域技术的当前状态通常旨在通过具有有限数量的样本的培训模型来识别受控环境中的面部表达。为了增强学习模型的各种场景的稳健性,我们建议通过利用标记的样本以及大量未标记的数据来执行全能监督学习。特别是,我们首先使用MS-CeleB-1M作为面部池,其中包括大约5,822k未标记的面部图像。然后,采用基于少量标记样品的原始模型来通过进行基于特征的相似性比较来选择具有高度自信心的样本。我们发现以这种全局监督方式构建的新数据集可以显着提高学习的FER模型的泛化能力,并因此提高了性能。然而,随着使用更多的训练样本,需要更多的计算资源和培训时间,在许多情况下通常不能实惠。为了减轻计算资源的要求,我们进一步采用了数据集蒸馏策略,以将目标任务相关知识从新的开采样本中蒸馏,并将其压缩成一组非常小的图像。这种蒸馏的数据集能够提高FER的性能,额外的额外计算成本。我们在五个流行的基准和新构造的数据集中执行广泛的实验,其中可以使用所提出的框架在各种设置下实现一致的收益。我们希望这项工作作为一个坚实的基线,并帮助缓解FER的未来研究。
translated by 谷歌翻译
Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
translated by 谷歌翻译
Current large language models can perform reasonably well on complex tasks that require step-by-step reasoning with few-shot learning. Are these models applying reasoning skills they have learnt during pre-training and reason outside of their training context, or are they simply memorizing their training corpus at finer granularity and have learnt to better understand their context? To tease apart these possibilities, we introduce ALERT, a benchmark and suite of analyses for assessing language models' reasoning ability comparing pre-trained and finetuned models on complex tasks that require reasoning skills to solve. ALERT provides a test bed to asses any language model on fine-grained reasoning skills, which spans over 20 datasets and covers 10 different reasoning skills. We leverage ALERT to further investigate the role of finetuning. With extensive empirical analysis we find that language models learn more reasoning skills such as textual entailment, abductive reasoning, and analogical reasoning during finetuning stage compared to pretraining state. We also find that when language models are finetuned they tend to overfit to the prompt template, which hurts the robustness of models causing generalization problems.
translated by 谷歌翻译
Recent progress on vision-language foundation models have brought significant advancement to building general-purpose robots. By using the pre-trained models to encode the scene and instructions as inputs for decision making, the instruction-conditioned policy can generalize across different objects and tasks. While this is encouraging, the policy still fails in most cases given an unseen task or environment. To adapt the policy to unseen tasks and environments, we explore a new paradigm on leveraging the pre-trained foundation models with Self-PLAY and Self-Describe (SPLAYD). When deploying the trained policy to a new task or a new environment, we first let the policy self-play with randomly generated instructions to record the demonstrations. While the execution could be wrong, we can use the pre-trained foundation models to accurately self-describe (i.e., re-label or classify) the demonstrations. This automatically provides new pairs of demonstration-instruction data for policy fine-tuning. We evaluate our method on a broad range of experiments with the focus on generalization on unseen objects, unseen tasks, unseen environments, and sim-to-real transfer. We show SPLAYD improves baselines by a large margin in all cases. Our project page is available at https://geyuying.github.io/SPLAYD/
translated by 谷歌翻译